什么是频数分布?

作者:Ruben Geert van den Berg,出自 Statistics A-Z

频数分布 (Frequency Distribution) 是对某个变量中所有不同取值及其出现次数的概括。也就是说,频数分布显示了频率 (frequencies) 如何在分布 (distributed) 在不同的取值上。

频数分布主要用于汇总分类变量 (categorical variables)。 这是因为度量变量 (metric variables) 往往有很多不同的取值,这会导致产生巨大的表格和图表,反而不能帮助你了解你的数据。在这种情况下,使用直方图 (histograms) 才是更好的选择,因为直方图可以可视化_区间 (intervals)_ 而不是每个不同取值的频率。 接下来,让我们看一些频数分布的例子。

频数分布 - 示例

我们让 183 名学生填写了一份调查问卷。其中一个问题是他们所学的专业。下面的截图显示了部分数据。

Frequency Distribution Raw Data View Major

频数分布 - 表格

那么这些专业怎么样呢?仅仅盯着我们的 183 个数值是无法帮助我们的。一个更可行的方法是简单地将数据中每个不同的专业及其频率 (frequency) - 也就是它出现的次数 - 制成表格。 由此产生的表格(如下所示)显示了频率是如何分布 在不同的取值上 - 在这个例子中是专业 - 因此它是一个频数分布。

Simple Frequency Distribution as Table 简单的频数分布表

最受欢迎的专业是心理学 (n = 62)。“其他 (Other)” 是最不受欢迎的专业 (n = 16)。其余专业受欢迎程度大致相同 (n 在 33 和 37 之间)。

请注意,频率加起来等于我们的样本量,即 183 名学生。 总是这样,除非变量包含 缺失值 (missing values):受访者有时会跳过一个问题或回答“不回答”或类似的东西。

相对频率

可选地,频数分布可以包含相对频率 (relative frequencies)相对于(除以)总数值的频率。相对频率通常显示为百分比或比例。

Frequency Distribution Relative Frequencies

相对频率可以很容易地了解频数分布。此外,它们有助于比较。例如,“67.5% 的男性和 63.2% 的女性毕业” 比 “117 名男性中有 79 名毕业,190 名女性中有 120 名毕业” 更容易理解。对吧?

相对频率与概率

概率 (Probability) 是一种特殊的相对频率。概率是无限次试验中的相对频率。因此,声明“抛硬币有 50% 的概率正面朝上” 从技术上讲意味着,如果我们无限次地抛硬币,那么 50% - 一个相对频率 - 的那些抛掷将正面朝上。

现在,我们显然不能无限次地抛硬币,所以我们无法肯定地证明这一说法。但是,如果我们抛硬币很多次(比如 100 次),那么正面朝上的相对频率可能应该_接近_ 0.5(或 50%)。

一个非常不同的结果可能具有较低的p-value (p值)。我们经常说,如果 p < 0.05,则效果是统计显著的。这仅仅意味着,如果我们能够抽取无限数量的随机样本,我们的样本结果 - 某个百分比, 相关性 (correlation),均值差异或其他什么 - 应该在所有样本的不到 5% 中 出现。这种相对频率 - 或概率 - 非常低意味着,鉴于我们的一些零假设,我们的数据不太可能 - 因此被拒绝。

好吧。没关系。让我们继续讨论频数分布。

频数分布 - 累积频率

累积频率 (cumulative frequency) 是一个取值及其所有先前的取值发生的次数。也就是说,频率在取值上累积 - 因此称为“累积”。同样的推理也适用于累积_相对_频率,如下图所示。

Table Showing Cumulative Frequencies

在这个例子中,我们可以立即看到 73.2% 的受访者对我们的课程的评价_至少_是“良好 (Good)”。这是 “良好 (Good)” 及其所有先前的取值 - 在这种情况下只有 “非常好 (Very Good)” - 的相对频率。

关于累积频率,不要忽略以下几点:

  • 累积频率取决于频率表中取值被列出的顺序 (order)。如果我们颠倒我们的表格,那么 “良好 (Good)” 的累积百分比将是 (3.8% + 23% + 50.8% =) 77.6%。这是 “良好 (Good)” 或_更差_评价的百分比。
  • 累积频率对于名义变量 (nominal variables) 没有用处。这是因为它们的取值没有内在的顺序。例如,说 “25.3% 的受访者_至少_是法国人” 是没有意义的。

频数分布 - 条形图

条形图 (bar chart) 是一种常见的频数分布可视化方式,如下图所示。

Frequency Distribution Bar Chart Courses Taken

这是一个简单的图表,但请注意几个重要点

  • 每个不同的取值都用一个条形表示。因此,具有许多不同取值的变量(生日或月收入)将具有大量的条形,因此不适合条形图。对于这种变量,直方图是一个更好的选择。
  • 类别轴是非线性的 (not linear):1 和 2 之间的距离(以厘米为单位)与 4 和 7 之间的距离相同。因此,我们不能说 1 厘米代表 1 或 3 门课程的差异。
  • 零频率 (zero frequencies) 从图表中省略。例如,这些学生中没有人选修 5 门课程。这就是为什么 5 在类别轴上根本没有出现。

所有这些特征都不适用于直方图 (histogram),直方图可能看起来与条形图相似,但实际上是不同的。

频数分布 - 饼图

饼图 (pie chart) 是频数分布的另一种可视化方式,如下图所示。

Frequency Distribution Pie Chart

可以认为,这个饼图比前面提到的条形图更好:我们的 5 个百分比必须加起来等于 100%,因此不是独立的 (not independent)。饼图有点可视化了这种依赖性:如果饼图的一个切片变大,那么至少另一个切片必须缩小。这对于条形图中的条形不成立 - 这错误地表明(相对)频率是独立的。

感谢阅读!